【Day11】: 實作Python斜槓小資族的救星-爬蟲取得股價資訊(一) +基本流程分析

2022 iThome 鐵人賽

DAY 11

Software Development

Python派神，大顯神威!!系列第 11 篇

【Day11】: 實作Python斜槓小資族的救星-爬蟲取得股價資訊(一) +基本流程分析

14th鐵人賽

生活實踐家Adam

2022-09-26 21:23:51

2731 瀏覽

分享至

大環境欠佳，物價飛漲就是薪水不漲(或是漲不如預期)的年代，
很多在外租房子的小資族三餐都快成問題，
不過，山不轉人轉，
存股或低風險投資一下總是不無少補吧!
這些聲音我聽到了，
因此，趕快來給大家惡補一下，
如何利用Python爬蟲以最少的時間與最有效的方法來增加斜槓獲利。

(一) 什麼是網路爬蟲呢?
網路爬蟲又名"網路蜘蛛"，是一種程式腳本，電腦將依照腳本的規則瀏覽與收集你想要的資料，通過網頁的鏈結地址來尋找特定的網頁內容，從網站的特定頁開始，讀取網頁的內容，找到其中的鏈接地址，然後通過這些鏈接地址尋找下一個網頁，依照設計的方式循環的抓取網頁的技術。例如:股票資訊收集

如何運用Python的網路爬蟲來達到這個需求呢?
我們先從需求的角度來看:
(二) 設計需求基本流程規劃

我們就拿這個簡單的例子，來演示一下一般需求條列的狀況，以及因未注意到細節可能衍伸的後果，
從上面的流程示意圖來看，一般的基本業務流程如下:
Step1: 由主程式提出爬文需求(即股價資訊)。
Step2: 程式藉由相關的套件或函式經由網路向股市資訊站取得股價資訊，此時系統可能會將此資訊暫存為*.txt檔。
Step3: 原發出需求的系統取得回覆的股價資訊，此時系統會將相關資訊暫存為*.csv檔。
Step4: 系統將呼叫相關套件或函式過濾(或篩選)有效的股價資訊，並做日期格式的轉換或範圍篩選。
Step5: 系統最終將整理好的股價資訊存檔以供檢閱。
先從以上5個步驟來看，從程式的角度是否都可做到?
再看一次，
應該沒什麼問題。
但，說到Step5這個「檢閱」，那學問可大著呢。
由於沒有具體指出檢閱的產出物(或稱標的)(Output)，
因此可能會面臨後面需求變更的狀況與增加工時成本的情形。